Seleccione idioma

Spanish

Down Icon

Seleccione país

England

Down Icon

¿Los modelos de razonamiento realmente "piensan" o no? La investigación de Apple genera un intenso debate y reacciones.

¿Los modelos de razonamiento realmente "piensan" o no? La investigación de Apple genera un intenso debate y reacciones.

Logotipo estilizado de Apple Inc. en negro, rodeado de artefactos con fallos sobre un fondo blanco.

Crédito: VentureBeat realizado con Midjourney

Únase al evento en el que los líderes empresariales confían desde hace casi dos décadas. VB Transform reúne a quienes desarrollan una verdadera estrategia de IA empresarial. Más información.

El grupo de aprendizaje automático de Apple desató una tormenta retórica a principios de este mes con el lanzamiento de " La ilusión del pensamiento ", un documento de investigación de 53 páginas que sostiene que los llamados modelos de razonamiento grandes (LRM) o modelos de lenguaje grandes de razonamiento (LLM de razonamiento), como la serie "o" de OpenAI y Gemini-2.5 Pro y Flash Thinking de Google, en realidad no participan en un "pensamiento" o "razonamiento" independiente a partir de los primeros principios generalizados aprendidos de sus datos de entrenamiento.

En cambio, sostienen los autores, estos LLM de razonamiento en realidad están realizando una especie de "coincidencia de patrones" y su aparente capacidad de razonamiento parece desmoronarse una vez que una tarea se vuelve demasiado compleja, lo que sugiere que su arquitectura y rendimiento no son un camino viable para mejorar la IA generativa hasta el punto de que sea inteligencia artificial generalizada (AGI), que OpenAI define como un modelo que supera a los humanos en el trabajo económicamente más valioso, o superinteligencia, IA incluso más inteligente de lo que los seres humanos pueden comprender.

Como era de esperar, el artículo circuló rápidamente entre la comunidad de aprendizaje automático en X, y las reacciones iniciales de muchos lectores fueron declarar que Apple había desmentido eficazmente gran parte del revuelo en torno a este tipo de IA: «Apple acaba de demostrar que los modelos de 'razonamiento' de IA como Claude, DeepSeek-R1 y o3-mini en realidad no razonan en absoluto», declaró Ruben Hassid , creador de EasyGen, una herramienta de escritura automática de publicaciones en LinkedIn basada en LLM. «Simplemente memorizan patrones muy bien».

Pero ahora, hoy, ha surgido un nuevo artículo , titulado descaradamente " La ilusión de la ilusión del pensamiento " (lo cual es importante, escrito en coautoría con un LLM en razonamiento, Claude Opus 4 y Alex Lawsen, un ser humano e investigador independiente de IA y escritor técnico), que incluye muchas críticas de la comunidad de ML más amplia sobre el artículo y argumenta de manera efectiva que las metodologías y los diseños experimentales que utilizó el equipo de investigación de Apple en su trabajo inicial son fundamentalmente defectuosos.

Si bien aquí en VentureBeat no somos investigadores de ML y no estamos preparados para decir que los investigadores de Apple están equivocados, el debate ciertamente ha sido animado y el tema sobre las capacidades de los LRM o LLM razonadores en comparación con el pensamiento humano parece lejos de resolverse.

Utilizando cuatro problemas de planificación clásicos (Tower of Hanoi, Blocks World, River Crossing y Checkers Jumping), los investigadores de Apple diseñaron una batería de tareas que obligaban a los modelos de razonamiento a planificar múltiples movimientos por adelantado y generar soluciones completas.

Estos juegos fueron elegidos por su larga trayectoria en la ciencia cognitiva y la investigación en IA, así como por su capacidad de escalar en complejidad a medida que se añaden más pasos o restricciones. Cada rompecabezas requería que los modelos no solo produjeran una respuesta final correcta, sino que explicaran su razonamiento a lo largo del proceso mediante la estimulación de cadenas de pensamiento.

A medida que aumentaba la dificultad de los rompecabezas, los investigadores observaron una disminución constante de la precisión en los múltiples modelos de razonamiento principales. En las tareas más complejas, el rendimiento se desplomó a cero. Cabe destacar que la longitud de las trazas de razonamiento interno de los modelos (medida por la cantidad de tokens dedicados a analizar el problema) también comenzó a disminuir. Los investigadores de Apple interpretaron esto como una señal de que los modelos abandonaban por completo la resolución de problemas una vez que las tareas se volvían demasiado difíciles, prácticamente "dando por vencidos".

El momento de la publicación del artículo, justo antes de la Conferencia Mundial de Desarrolladores (WWDC) anual de Apple , contribuyó a su impacto. Rápidamente se viralizó en X, donde muchos interpretaron los hallazgos como una admisión pública de que los LLM de la generación actual siguen siendo motores de autocompletado glorificados, no pensadores de propósito general. Este planteamiento, aunque controvertido, impulsó gran parte del debate inicial que siguió.

Entre los críticos más vocales del artículo de Apple se encontraba el investigador de ML y usuario X @scaling01 (también conocido como “Lisan al Gaib”), quien publicó varios hilos analizando la metodología.

En una publicación ampliamente compartida , Lisan argumentó que el equipo de Apple confundió las fallas del presupuesto de tokens con fallas de razonamiento, y señaló que "todos los modelos tendrán una precisión de 0 con más de 13 discos simplemente porque no pueden generar tanto".

En el caso de rompecabezas como la Torre de Hanoi, enfatizó, el tamaño de salida crece exponencialmente, mientras que las ventanas de contexto LLM permanecen fijas, escribiendo "solo porque la Torre de Hanoi requiere exponencialmente más pasos que los otros, que solo requieren cuadrática o linealmente más pasos, no significa que la Torre de Hanoi sea más difícil" y demostró de manera convincente que modelos como Claude 3 Sonnet y DeepSeek-R1 a menudo producían estrategias algorítmicamente correctas en texto simple o código, pero aún así se marcaban como incorrectos.

Otra publicación destacó que incluso dividir la tarea en pasos más pequeños y descompuestos empeoraba el rendimiento del modelo, no porque los modelos no pudieran comprender, sino porque carecían de memoria de movimientos y estrategias anteriores.

“El LLM necesita historia y una gran estrategia”, escribió, sugiriendo que el verdadero problema era el tamaño de la ventana de contexto más que el razonamiento.

Yo mismo planteé otra importante duda sobre X : Apple nunca comparó el rendimiento del modelo con el rendimiento humano en las mismas tareas. "¿Me lo estoy perdiendo o no compararon los LRM con el rendimiento humano en las mismas tareas? Si no, ¿cómo saben que esta misma disminución del rendimiento no les ocurre también a las personas?". Pregunté directamente a los investigadores en un hilo etiquetando a los autores del artículo. También les envié un correo electrónico sobre esta y muchas otras preguntas, pero aún no han respondido.

Otros coincidieron en esta opinión, señalando que quienes resuelven problemas también fallan en los rompecabezas de lógica largos y de varios pasos, especialmente sin herramientas de lápiz y papel ni ayudas para la memoria. Sin esa base, la afirmación de Apple sobre un "colapso fundamental del razonamiento" resulta infundada.

Varios investigadores también cuestionaron la formulación binaria del título y la tesis del artículo, que traza una línea divisoria clara entre “coincidencia de patrones” y “razonamiento”.

Alexander Doria, alias Pierre-Carl Langlais, formador de LLM en la startup francesa de inteligencia artificial energéticamente eficiente Pleias , dijo que el enfoque no capta los matices y argumenta que los modelos podrían estar aprendiendo heurísticas parciales en lugar de simplemente hacer coincidir patrones.

Bueno, supongo que tendré que revisar ese documento de Apple.

Mi principal problema es el encuadre, que es extremadamente binario: "¿Son estos modelos capaces de un razonamiento generalizable o utilizan diferentes formas de coincidencia de patrones?". ¿O qué pasaría si solo detectaran heurísticas genuinas, pero parciales? pic.twitter.com/GZE3eG7WlM

— Alexander Doria (@Dorialexander) 8 de junio de 2025

Ethan Mollick, profesor especializado en inteligencia artificial de la Wharton School of Business de la Universidad de Pensilvania, calificó de prematura la idea de que los LLM están “chocando contra una pared”, comparándola con afirmaciones similares sobre el “colapso del modelo” que no se cumplieron.

Mientras tanto, críticos como @arithmoquine fueron más cínicos y sugirieron que Apple, que está detrás de los LLM en comparación con rivales como OpenAI y Google, podría estar tratando de reducir las expectativas", y presentaron una investigación sobre "cómo todo es falso y gay y de todos modos no importa", bromearon, señalando la reputación de Apple con productos de inteligencia artificial que ahora tienen un rendimiento deficiente, como Siri.

En resumen, si bien el estudio de Apple desencadenó una conversación significativa sobre el rigor de la evaluación, también expuso una profunda división sobre cuánta confianza depositar en las métricas cuando la prueba en sí misma puede ser defectuosa.

En otras palabras, es posible que los modelos hayan entendido los acertijos pero se hayan quedado sin “papel” para escribir la solución completa.

“Los límites simbólicos, no la lógica, congelaron los modelos”, escribió el investigador de Carnegie Mellon, Rohan Paul, en un hilo ampliamente compartido que resume las pruebas de seguimiento.

Sin embargo, no todos están listos para liberar a los LRM de la carga. Algunos observadores señalan que el estudio de Apple aún reveló tres regímenes de rendimiento: tareas simples donde el razonamiento adicional perjudica, rompecabezas de nivel medio donde ayuda, y casos de alta complejidad donde tanto los modelos estándar como los de "pensamiento" fallan.

Otros ven el debate como una estrategia de posicionamiento corporativo y señalan que los modelos “Apple Intelligence” de Apple en los dispositivos quedan por detrás de sus rivales en muchas tablas de clasificación públicas.

En respuesta a las afirmaciones de Apple, un nuevo artículo titulado “ La ilusión de la ilusión del pensamiento ” fue publicado en arXiv por el investigador independiente y escritor técnico Alex Lawsen de la organización sin fines de lucro Open Philanthropy , en colaboración con Claude Opus 4 de Anthropic.

El artículo cuestiona directamente la conclusión del estudio original de que los LLM fracasan debido a una incapacidad inherente para razonar a gran escala. En cambio, la refutación presenta evidencia de que el colapso del rendimiento observado fue, en gran medida, una consecuencia de la configuración de la prueba, no un verdadero límite de la capacidad de razonamiento.

Lawsen y Claude demuestran que muchos de los fallos del estudio de Apple se deben a limitaciones de tokens. Por ejemplo, en tareas como la Torre de Hanói, los modelos deben imprimir una cantidad exponencial de pasos (más de 32 000 movimientos para tan solo 15 discos), lo que los lleva a alcanzar límites de producción.

La refutación señala que el script de evaluación de Apple penalizó estas salidas de desbordamiento de token como incorrectas, incluso cuando los modelos siguieron una estrategia de solución correcta internamente.

Los autores también destacan varias construcciones de tareas cuestionables en los benchmarks de Apple. Algunos de los rompecabezas de River Crossing, señalan, son matemáticamente irresolubles tal como se plantearon, y aun así, se evaluaron los resultados del modelo para estos casos. Esto cuestiona aún más la conclusión de que las fallas de precisión representan limitaciones cognitivas en lugar de fallas estructurales en los experimentos.

Para probar su teoría, Lawsen y Claude realizaron nuevos experimentos que permitían a los modelos proporcionar respuestas comprimidas y programáticas. Al solicitarles que generaran una función de Lua que generara la solución de la Torre de Hanói —en lugar de escribir cada paso línea por línea—, los modelos repentinamente funcionaron correctamente en problemas mucho más complejos. Este cambio de formato eliminó el colapso por completo, lo que sugiere que los modelos no fallaron en su razonamiento. Simplemente no se ajustaron a una rúbrica artificial y excesivamente estricta.

El intercambio de opiniones pone de relieve un consenso creciente: el diseño de la evaluación es ahora tan importante como el diseño del modelo.

Exigir a los LRM que enumeren cada paso puede poner a prueba a sus impresoras más que a sus planificadores, mientras que los formatos comprimidos, las respuestas programáticas o los blocs de notas externos ofrecen una lectura más clara de la capacidad de razonamiento real.

El episodio también destaca los límites prácticos que enfrentan los desarrolladores al enviar sistemas agenticos: las ventanas de contexto, los presupuestos de salida y la formulación de tareas pueden determinar el rendimiento visible para el usuario.

Para los responsables de la toma de decisiones técnicas empresariales que desarrollan aplicaciones basadas en LLM de razonamiento, este debate va más allá de lo académico. Plantea preguntas cruciales sobre dónde, cuándo y cómo confiar en estos modelos en los flujos de trabajo de producción, especialmente cuando las tareas implican largas cadenas de planificación o requieren resultados precisos paso a paso.

Si un modelo parece fallar ante una solicitud compleja, el problema podría no residir en su capacidad de razonamiento, sino en cómo se plantea la tarea, la cantidad de salida requerida o la cantidad de memoria a la que tiene acceso el modelo. Esto es especialmente relevante para industrias que desarrollan herramientas como copilotos, agentes autónomos o sistemas de apoyo a la toma de decisiones, donde tanto la interpretabilidad como la complejidad de las tareas pueden ser elevadas.

Comprender las limitaciones de las ventanas de contexto, los presupuestos de tokens y las rúbricas de puntuación utilizadas en la evaluación es esencial para un diseño de sistemas confiable. Los desarrolladores podrían considerar soluciones híbridas que externalicen la memoria, fragmenten los pasos de razonamiento o utilicen resultados comprimidos, como funciones o código, en lugar de explicaciones verbales completas.

Lo más importante es que la controversia del artículo nos recuerda que la evaluación comparativa y la aplicación práctica no son lo mismo. Los equipos empresariales deben ser cautelosos al no confiar demasiado en evaluaciones comparativas sintéticas que no reflejan casos prácticos o que, inadvertidamente, limitan la capacidad del modelo para demostrar sus conocimientos.

En última instancia, la gran conclusión para los investigadores de ML es que antes de proclamar un hito en IA (o un obituario), hay que asegurarse de que la prueba en sí no esté colocando al sistema en una caja demasiado pequeña para pensar dentro de ella.

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow